#long CoT

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

6个月前

Deepseek的GRPO（Group Relative Policy Optimization ）算法，还是非常有效的long CoT的RL方法，根据最后结果只和之前的相比更趋近目标，就能得到奖励，非常smart，在reward hack和RL效能之间取得平衡。姚顺雨说起来只是个搞prompt的，用Tree of Search解决NTP基础上的有一定结构的token块的搜索问题。语言真是太神奇了。符号表征和结构解构能力都有无穷可能。

#DeepSeek #GRPO算法 #long CoT #RL方法 #姚顺雨 #Tree of Search #NTP #token块搜索